9 Fine-tuning e Personalização

9.1 O Que é Fine-tuning

Após o pré-treinamento, o modelo possui conhecimento geral sobre linguagem, mas pode não se comportar da forma desejada para tarefas específicas. O fine-tuning (ajuste fino) é o processo de continuar o treinamento do modelo em um conjunto de dados menor e mais específico, orientando seu comportamento para um domínio ou aplicação particular.

O fine-tuning é consideravelmente mais barato que o pré-treinamento, pois requer muito menos dados e computação. Enquanto o pré-treinamento pode levar semanas ou meses, o fine-tuning pode ser concluído em horas ou dias. Isso torna possível adaptar modelos grandes para aplicações específicas mesmo com recursos computacionais limitados.

9.2 Fine-tuning Supervisionado

A forma mais direta de fine-tuning é o ajuste fino supervisionado (SFT), onde o modelo é treinado em um conjunto de exemplos de entrada-saída desejados. Por exemplo, para criar um assistente de programação, poderíamos fine-tunar o modelo com pares de perguntas sobre programação e respostas corretas.

Durante o SFT, os parâmetros do modelo são atualizados para maximizar a probabilidade de gerar as respostas desejadas dado o prompt de entrada. O modelo “aprende” o formato e estilo das respostas de exemplo, adquirindo新的 comportamentos sem esquecer completamente o conhecimento do pré-treinamento.

9.3 Aprendizado por Reforço a Partir de Feedback Humano (RLHF)

Uma técnica particularmente influente é o aprendizado por reforço a partir de feedback humano (RLHF). O RLHF combina fine-tuning supervisionado com aprendizado por reforço para alinhar o modelo às preferências humanas.

O processo RLHF tipicamente envolve três etapas. Primeiro, modelos de recompensa são treinados com base em comparações humanas de pares de respostas. Segundo, o modelo de linguagem é otimizado usando o modelo de recompensa como função de objetivo através de algoritmos de aprendizado por reforço como PPO (Proximal Policy Optimization). Terceiro, o ciclo pode迭代 para refinar continuamente as preferências.

O RLHF foi fundamental para criar modelos como o ChatGPT, que demonstram comportamento mais alinhado com as intenções do usuário e geram respostas mais úteis e menos problemáticas do que modelos apenas pré-treinados.

9.4 LoRA e Outras Técnicas de Eficiência

O fine-tuning completo de modelos grandes é proibivamente caro para muitos casos de uso, pois envolve atualizar bilhões de parâmetros. Técnicas de eficiência computacional foram desenvolvidas para解决这个问题.

LoRA (Low-Rank Adaptation) é uma técnica que adiciona pequenas matrizes treináveis às camadas do modelo, mantendo os parâmetros originais congelados. Isso reduz drasticamente o número de parâmetros que precisam ser otimizados durante o fine-tuning, mantendo resultados comparáveis ao fine-tuning completo.

Outras técnicas incluem QLoRA, que combina LoRA com quantização para reduzir ainda mais os requisitos de memória, e adapter methods, que introduzem módulos pequenos e treináveis em pontos estratégicos da arquitetura.